최소제곱법

AI
qwen-3-235b-a22b-instruct-2507
작성자
익명
작성일
2026.01.11
조회수
8
버전
v1

최소제곱법

개요

최소제곱법(Least Squares Method)은 관측된 데이터와 모델의 예측값 사이의 차이, 즉 잔차(residual)의 제곱합을 최소화하여 모델의 파라미터를 추정하는 통계적 방법이다. 이 방법은 회귀 분석, 데이터 피팅, 예측 모델링 등 데이터과학의 핵심 분야에서 널리 사용되며, 특히 선형 회귀 모델의 추정에 가장 일반적으로 적용된다.

최소제곱법은 18세기 말 카를 프리드리히 가우스와 아드리앵마리 르장드르에 의해 독립적으로 개발되었으며, 천체의 궤도 예측 문제에서 기원하였다. 오늘날 이 방법은 기계학습, 경제학, 공학, 생물정보학 등 다양한 분야에서 기초적인 도구로 활용되고 있다.

원리와 수학적 배경

잔차의 제곱합 최소화

최소제곱법의 핵심 아이디어는 모델의 예측값과 실제 관측값 사이의 오차를 제곱하여 그 합을 최소화하는 것이다. 관측 데이터가 ( (x_i, y_i) )로 주어졌을 때, 모델 ( \hat{y}_i = f(x_i; \beta) )의 예측값과의 차이를 다음과 같이 정의한다:

[ \text{잔차} = y_i - \hat{y}_i ]

이때, 전체 데이터셋에 대한 잔차 제곱합(Sum of Squared Residuals, SSR)은:

[ SSR = \sum_{i=1}^{n} (y_i - \hat{y}_i)^2 ]

최소제곱법은 이 ( SSR )을 최소로 만드는 모수 ( \beta )를 찾는 것이다.

선형 회귀에서의 최소제곱법

가장 흔한 응용은 선형 회귀(Linear Regression)이다. 단순 선형 회귀의 경우, 모델은 다음과 같다:

[ \hat{y} = \beta_0 + \beta_1 x ]

여기서 ( \beta_0 )는 절편, ( \beta_1 )은 기울기이다. 최소제곱법을 통해 ( \beta_0 )과 ( \beta_1 )을 다음과 같이 추정할 수 있다:

[ \beta_1 = \frac{\sum (x_i - \bar{x})(y_i - \bar{y})}{\sum (x_i - \bar{x})^2}, \quad \beta_0 = \bar{y} - \beta_1 \bar{x} ]

여기서 ( \bar{x}, \bar{y} )는 각각 ( x )와 ( y )의 평균이다.

다중 선형 회귀의 경우, ( \hat{y} = \mathbf{X}\boldsymbol{\beta} ) 형태로 표현되며, 행렬을 이용해 해를 구할 수 있다:

[ \boldsymbol{\hat{\beta}} = (\mathbf{X}^\top \mathbf{X})^{-1} \mathbf{X}^\top \mathbf{y} ]

단, ( \mathbf{X}^\top \mathbf{X} )가 역행렬을 가져야 하며, 이를 위해 독립변수 간의 다중공선성 문제가 없어야 한다.

종류와 변형

1. 일반 최소제곱법 (Ordinary Least Squares, OLS)

가장 기본적인 형태로, 잔차가 독립적이고 동일한 분산을 가지며 정규분포를 따른다는 가정 하에 사용된다. OLS는 최적의 선형 불편 추정량(BLUE)이 되기 위해 가우스-마르코프 정리의 조건을 만족해야 한다.

2. 가중 최소제곱법 (Weighted Least Squares, WLS)

잔차의 분산이 동일하지 않은 경우(이분산성)에 사용된다. 각 잔차에 가중치를 부여하여 분산이 큰 데이터에는 낮은 신뢰도를, 작은 데이터에는 높은 신뢰도를 부여한다.

[ SSR_{\text{weighted}} = \sum w_i (y_i - \hat{y}_i)^2 ]

3. 일반화 최소제곱법 (Generalized Least Squares, GLS)

잔차 간의 상관 구조나 비정상적 분산 구조를 고려할 수 있는 일반화된 형태로, 공분산 행렬 ( \mathbf{\Omega} )를 포함하여 추정한다.

4. 비선형 최소제곱법 (Nonlinear Least Squares, NLS)

모델이 비선형인 경우(예: 지수함수, 로지스틱 함수)에 사용되며, 수치적 최적화 알고리즘(예: 가우스-뉴턴법, 레븐버그-마쿼트법)을 통해 해를 구한다.

장점과 한계

장점

  • 수학적으로 간단하고 해석이 용이하다.
  • 해석 가능한 계수(예: 기울기)를 제공하여 변수 간 관계 분석에 유리하다.
  • 계산이 비교적 빠르며, 닫힌 형태의 해(closed-form solution)가 존재한다(OLS 기준).

한계

  • 이상치(outliers)에 매우 민감하다. 제곱 오차를 사용하므로 큰 오차가 전체 손실에 지나치게 큰 영향을 미친다.
  • 선형성, 독립성, 등분산성, 정규성 등의 가정을 만족해야 한다. 이를 위반할 경우 신뢰할 수 없는 추정치를 낳을 수 있다.
  • 다중공선성 또는 과적합(overfitting) 문제가 발생할 수 있다.

응용 분야

  • 경제학: 소비 함수, 수요 예측 모델링
  • 공학: 센서 데이터 보정, 시스템 동특성 추정
  • 기계학습: 선형 회귀 기반 모델의 기초
  • 의학: 임상시험 데이터 분석
  • 금융: 자산 수익률 예측

관련 개념

  • 결정계수 ( R^2 ): 모델의 설명력을 평가하는 지표로, 잔차 제곱합과 총제곱합의 비율로 정의된다.
  • 정규방정식(Normal Equation): ( \mathbf{X}^\top \mathbf{X} \boldsymbol{\beta} = \mathbf{X}^\top \mathbf{y} ) 형태의 방정식으로, OLS 해를 구하는 기초.
  • 릿지 회귀(Ridge Regression): 최소제곱법에 L2 정규화를 추가하여 과적합을 방지하는 방법.

참고 자료

  • Greene, W. H. (2018). Econometric Analysis (8th ed.). Pearson.
  • James, G., Witten, D., Hastie, T., & Tibshirani, R. (2013). An Introduction to Statistical Learning. Springer.
  • Wikipedia - Least Squares

최소제곱법은 단순하지만 강력한 도구로, 데이터과학의 기초를 이루는 핵심 알고리즘 중 하나이다. 현대의 복잡한 머신러닝 모델도 그 기저에 최소제곱 원리를 활용하는 경우가 많다.

AI 생성 콘텐츠 안내

이 문서는 AI 모델(qwen-3-235b-a22b-instruct-2507)에 의해 생성된 콘텐츠입니다.

주의사항: AI가 생성한 내용은 부정확하거나 편향된 정보를 포함할 수 있습니다. 중요한 결정을 내리기 전에 반드시 신뢰할 수 있는 출처를 통해 정보를 확인하시기 바랍니다.

이 AI 생성 콘텐츠가 도움이 되었나요?